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摘要 : [目的 /意义 ] 将 体验 型 产品 在 线 评论 按照 文本 长 度 分 为 长 文 未 在 线 评论 和 短文 本 在 线 评论 , 探 完 这 
两 类 评论 的 时 间 和 内 容 特 征 ,为 电子 商务 平台 掌握 消费 者 在 线 评论 行为 规律 和 商品 需求 偏好 提供 情报 依据 。 
[ 方法“ 过程] 利用 Python 人 怜 虫 语言 获取 电影 评论 网 站 中 在 线 评论 的 相关 信息 ,构造 在 线 评论 时 间 间 隔 序 列 , 基 
于 人 类 行为 动力 学 相关 构 念 , 探 完 不 同类 型 在 线 评论 发 布 行 为 的 时 间 特 征 规律 ;利用 文本 挖 据 方 法 找 出 不 同类 
型 在 线 评论 的 文本 内 容 特 征 并 进行 比较 分 析 。[ 结果 /结论 ] 以 电影 评论 网 站 在 线 评 论 为 数据 来 源 , 从 时 间 角 度 
滞 结 出 不 同类 型 在 线 评论 行为 的 时 间 间隔 序列 符合 暴 率 分 布 ;从 文本 内 容 角度 发 现 不 同 美 型 在 线 评论 的 文本 
调 容 特征 既 有 一 定 的 相似 性 ,也 表现 出 明显 的 差异 。 
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随 着 电子 商务 的 迅速 发 展 ,在 线 评论 数量 呈现 爆 ”2.1 
灶 的 增长 趋势 ,并 且 表 现 出 评论 字数 跨度 大 ,短文 本 
评 学 数量 众多 ,评论 长 度 与 数量 满足 寡 率 分 布 的 特 
筷 电 。 随 着 在 线 评论 字数 的 增多 ,文本 的 语义 深度 增 
强 5 对 评论 有 用 性 会 产生 正 向 影响 ” 。 从 评论 内 容 特 
征 乘 看 ,短文 本 评论 的 内 容 简单 .表达 信息 单一 ,文本 ”对 在 线 评论 有 用 性 感知 的 结论 ,并 且 在 线 评论 中 初 
长 大 较 短 ,消费 者 不 需要 花费 过 多 的 时 间 精 力 来 阅读 ， ”次 评论 与 追加 评论 之 间 的 时 间 间 隔 也 会 对 消费 者 评论 
而 长 文本 评论 的 内 容 相对 丰富 ,信息 富 集 程度 较 高 , 文 有 用 性 感知 产生 影响 。 张 艳 丰 等 通过 聚 类 分 析 对 搜 
本 较 长 且 逻 辑 性 强 ,消费 者 可 从 长 文本 评论 中 获取 大 ” 索 型 产品 在 线 评论 中 “初评 - 追 评 ” 的 时 间 间 隔 按 阶 
量 商 品 信息 ,更 容易 做 出 决策 ””。 从 在 线 评论 产生 数 。 ”上 段 进 行 划 分 ,对 各 阶段 内 评论 内 容 进 行文 本 挖 气 。 
量 来 看 ,短文 本 评论 要 远 多 于 长 文本 评论 ,并 且 发 布 更 ” 孙 春 华 等 认为 , 首 段 预告 片 投放 时 间 与 电影 上 映 时 间 


2 研究 回顾 


在 线 评论 时 间 维 度 相 关 研 究 

现 有 的 在 线 评 论 普遍 具有 时 间 记 录 功 能 ,这 种 数 
字 化 性 质 逐 渐 成 为 研究 在 线 评论 的 一 个 重要 维度 。 学 
者 们 基于 归 因 理论 ,利用 问卷 调查 法 得 到 体验 型 产品 
购买 与 发 布 评论 的 时 间 间 隔 越 短 , 越 能 够 提高 消费 者 


四 由 


加 密集 。 因 此 ,有 必要 将 在 线 评论 按照 文本 长 度 分 类 ， 
开展 长 文本 评论 和 短文 本 评论 的 对 比分 析 。 本 文 以 体 
验 型 产品 在 线 评论 为 研究 对 象 , 从 时 间 序 列 与 文本 内 
容 角 度 人 手 , 分 别 对 长 文本 在 线 评论 和 短文 本 在 线 评 
论 进行 深入 挖 气 , 有 利于 辅助 电子 商务 平台 掌握 消费 
者 评论 规律 ,帮助 消费 者 获取 所 需 信息 。 同 时 ,分 析 不 
同文 本 长 度 类 型 在 线 评论 的 行为 规律 和 内 容 特 征 , 对 
于 电 商 平台 ,监管 部 门 等 都 具有 重要 的 情报 价值 。 


间隔 越 长 ,消费 者 在 线 评论 情感 倾向 越 积极 正 向 ”。 
L. Jin 等 从 时 间距 离 理论 和 结构 拟 合理 论 出 发 ,认为 近 
期 在 线 评论 对 消费 者 近期 消费 决策 更 有 影响 力 ,但 当 
消费 者 做 出 远 期 消费 决策 时 ,发 布 时 间 较 久 的 在 线 评 
论 对 消费 者 决策 影响 力 会 相对 增加 ” 。 
2.2 在 线 评论 文本 挖掘 相关 研究 

文本 挖掘 技术 广泛 应 用 于 在 线 评论 相关 研究 中 ， 
主要 涉及 到 在 线 评论 特征 提取 和 情感 分 析 等 方面 。 目 
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前 文本 特征 提取 的 典型 机 器 学 习 算 法 包括 支持 向 量 机 
(Support Vector Machine, SVM ) 模型 、 隐 马尔 科 夫 
(Hdden Markov Model, HMM ) 模型 和 条 件 随 机 场 
(Condition Random Fields, CRFs ) 模型 "等 ,也 有 学 者 
利用 复杂 网 络 理论 技术 对 文本 内 容 进行 分 析 2 。 董 
兢 等 利用 文本 挖掘 技术 提取 3 个 电子 商务 平台 的 在 线 
评论 内 容 特征 并 对 其 相关 性 等 指标 进行 分 析 。 张 
刺 等 对 手机 用 户 在 线 评论 信息 特征 进行 提取 ,发 现 手 
机 更 新 换代 的 程度 越 高 ,消费 者 的 评价 越 积 极 "。 产 
品 特征 提取 与 情感 分 析 有 着 紧密 的 关系 ,目前 研究 大 
多 利用 文本 挖掘 技术 来 对 在 线 评论 进行 情感 分 析 "51 。 
李 杰 等 利用 卷 积 神经 网 络 从 句子 级 别 上 对 在 线 评 论 情 
感 进行 分 类 09 。 马 松 岳 等 利用 ROST EA 文本 分 析 工 
家 = 通 过 对 在 线 评 论 内 容 进行 情感 分 析 得 到 内 容 评价 
反 贫 ,对 打分 评价 与 内 容 评价 两 者 之 间 的 相关 性 进行 
判 晰 并 建立 了 回归 模型 1。 郑 丽 娟 等 将 情感 分 类 的 
请 区 方法 和 统计 方法 结合 起 来 ,构建 出 情感 本 体 并 对 
在 红 评 论 情感 极 性 和 强度 进行 分 析 '"  。 魏 仁 干 等 以 
2042 -2016 年 100 个 汽车 品牌 的 销量 数据 为 分 析 样 


性 目前 对 在 线 评论 有 用 性 的 研究 集中 于 利用 数学 方 
法 构建 评价 模型 对 在 线 评论 有 用 性 进行 排序 ,如 郭 顺 
利 笃 基于 模糊 层次 分 析 法 对 020 在 线 评论 构建 评论 
有 用 性 模型 "。 修 国 义 等 基于 信息 交流 模式 和 交流 
障碍 理论 ,从 信息 传递 效率 的 角度 对 在 线 评论 的 有 用 


评论 内 容 
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性 进行 排序 。 还 有 研究 从 在 线 评论 有 用 性 影响 因 
素 的 角度 出 发 ,如 从 体验 型 产品 和 搜索 型 产品 两 种 评 
论 类 型 的 角度 对 在 线 评论 的 有 用 性 进行 探索 ”。 方 
佳明 等 构建 了 在 线 评 论 有 用 性 影响 因素 的 计量 模型 ， 
证 实 品牌 声誉 和 产品 类 型 会 对 在 线 评 论 的 有 用 性 起 到 
调节 作用 "六 。 王 军 等 利用 实验 法 证 明 不 同 的 时 间 和 
社会 距离 会 影响 用 户 对 在 线 评论 有 用 性 的 评价 1。 
还 有 学 者 引入 认 知 心理 学 相关 概念 ,如 王 梁 深 等 利用 
眼 动 追 踪 技 术 , 将 消费 者 对 在 线 评 论 的 关注 程度 用 热 
图 呈现 ,以 此 得 到 影响 消费 者 评论 有 用 性 感知 的 因 
ES 
在 线 评论 数量 巨大 ,平均 字数 较 少 ,文本 长 度 分 布 
极 不 均衡 ,在 多 数 研究 中 众多 在 线 评论 由 于 字数 较 少 ， 
言 息 富 集 程度 较 低 而 被 过 滤 ,不 被 列 人 研究 范围 。 然 
而 ,短文 本 评论 的 数量 巨大 ,整体 上 看 其 文本 内 容 仍然 
具有 重要 的 情报 价值 。 已 有 研究 成 果 多 是 从 时 间 角 度 
对 在 线 评论 进行 分 类 ,对 不 同文 本 长 度 的 在 线 评 论 在 
数量 .情感 极 性 和 时 间 分 布 上 的 差异 性 并 未 给 予 足够 
重视 ,从 时 间 特 征 维 度 和 文本 挖掘 维度 对 以 文本 长 度 
为 划分 标准 的 在 线 评论 进行 对 比分 析 的 研究 鲜 有 涉 
足 。 基 于 此 ,本 文 以 文本 长 度 作为 评论 类 型 划分 依据 ， 
将 在 线 评论 划分 为 长 文本 评论 和 短文 本 评论 两 大 类 ， 
利用 文本 挖掘 方法 ,结合 在 线 评论 的 时 间 信 息 这 一 数 
字 化 指标 ,从 时 间 序 列 和 评论 内 容 两 个 角度 对 其 进行 
深入 挖掘 ,以 期 揭示 消费 者 在 线 评论 的 行为 规律 和 内 
容 特 征 ,丰富 体验 型 产品 在 线 评论 相关 特征 的 研究 。 


3 研究 设计 
3.1 研究 思 
本 文 的 研究 思路 框架 如 图 1 所 示 


动态 变化 分 析 | 
释 
时 间 间隔 竺 征 
分 析 
评论 特征 分 布 | 
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Cinax i 
以 电影 评论 为 例 四 由/ 向 让 报 守 撞 ， 


3.1.1 抓 取 在 线 评论 信息 并 分 类 ”基于 Python 程序 
语言 编写 网 络 疏 虫 程序 , 抓 取 目 标 产品 在 线 评论 中 的 
相关 信息 ,利用 文本 统计 工具 对 评论 文本 字数 进行 统 
计 。 具 体 而 言 ,按照 字符 数 将 在 线 评论 分 为 长 文本 评 
论 和 短文 本 评论 两 种 类 型 。 根 据 所 抓 取 的 时 间 信 息 ， 
将 这 两 类 在 线 评论 基于 评论 发 布 时 间 顺 序 进行 排列 。 
由 此 ,分 别 得 到 长 文本 评论 时 间 序 列 | A ,A,， As…… 
A,| 和 短文 本 评论 时 间 序列 1B, , B,，B,……B, | ,然后 
计算 相 邻 在 线 评论 发 布 的 时 间 间 隔 , 得 到 新 的 时 间 间 
隔 序 列 | Ci ,C,,C; a C，,} 和 1D, ,D,,D， a Dts 
3.1.2 刻画 消费 者 在 线 评论 行为 的 时 间 特 征 ” 对 不 
同文 本 类 型 在 线 评论 的 评论 数量 ,情感 倾向 .评分 等 结 
构 化 信息 在 不 同时 间 维 度 下 的 动态 变化 特征 进行 描 
述 ;大 于 人 类 行为 动力 学 中 时 间 测 度 的 相关 理论 和 方 
法 到 | 和信 时 间 间 隔 、 短 指数 和 阵 发 性 等 相关 指标 , 系统 
刻 另 在 线 评论 发 布 的 时 间 间隔 特征 ,进一步 分 析 消 费 
才 结 沦 行为 的 时 间 特 征 规律 。 

3CB3 基于 在 线 评论 文本 长 度 进行 文本 内 容 挖 所 

统计 不 同类 型 的 在 线 评论 中 高 频 词 的 分 布 规律 ,从 人 
牧 转 征 情感 表达 特征 和 电影 内 容 特征 3 个 角度 对 其 
评 活 内 容 的 异同 进行 比较 分 析 。 

3 人 研究 对 象 选择 

= 在 研究 样本 的 选择 上 ,本 文 以 电影 评论 为 研究 对 
象 5 要 是 考虑 到 目前 的 研究 对 象 多 以 图 书 .电影 等 体 
验 通 产品 和 照相 机 、 手 机 等 搜索 型 产品 为 主 * ,体验 
型 证 品 由 于 经 验 性 和 无 形 性 的 特征 ,消费 者 很 难 在 体 
验 之 前 获得 与 产品 相关 的 信息 ,导致 消费 者 在 购买 
过 稳 中 会 承担 较 大 的 风险 与 不 确定 性 。 因 此 ,为 了 规 
避 信 息 不 对 称 的 风险 ,消费 者 就 需要 阅读 该 类 产品 的 
在 线 评论 来 获取 信息 ” 。 相 比 于 搜索 型 产品 评论 , 消 
费 者 对 体验 型 产品 评论 的 依赖 性 更 强 ,凸显 出 研究 体 
验 型 产品 在 线 评论 的 重要 性 。 电 影 作为 一 种 典型 的 体 
验 型 产品 ,与 本 文 的 研究 情境 相 吻合 。 

就 平台 选择 而 言 , 本 文 将 “猫眼 电影 "这 一 第 三 方 
平台 作为 获取 电影 评论 的 数据 来 源 。“ 猫 眼 电影 " 原 
名 “ 美 团 电影 ” ,由 美 团 网 于 2012 年 2 月 推出 ,2013 年 
1 月 更 名 为 “猫眼 电影 "。 经 过 近年 来 的 发 展 ,已 成 为 
市 场 份额 占有 率 高 ,用户 使 用 群体 广泛 的 电影 应 用 软 
件 ,消费 者 在 该 电影 平台 上 发 布 的 电影 评论 数量 巨大 ， 
为 本 文 的 研究 提供 了 重要 的 数据 支持 。 

3.3 ”数据 采集 及 预 处 理 

本 文 运用 Python 程序 语言 自 编 朴 虫 程序 疏 取 热门 

电影 ( 那 不 压 正 》 共计 117 342 条 在 线 评论 数据 , 抓 取 


的 在 线 评论 信息 包括 评论 内 容 .评论 时 间 、 用 户 等 级 及 
日 户 评分 等 ,数据 统计 的 时 间 区 间 为 2018 年 7 月 13 
日 电影 上 映 首 日 至 2018 年 12 月 13 日 ,共计 153 天 。 
根据 国内 另 一 家 大 型 电影 评论 网 站 一 一 豆瓣 电影 ” 
对 电影 评论 的 分 类 规则 ,将 140 字 以 上 的 在 线 评 论 归 
为 较 专 业 的 影评 ,而 140 字 及 以 下 的 评论 纳入 相对 非 
专业 的 短评 。 本 文 依照 这 种 分 类 规则 ,将 评论 字数 在 
140 字 以 上 的 评论 归 集 为 信息 富 集 程度 较 高 的 长 文本 
评论 ,140 字 及 下 的 评论 归 集 为 信息 富 集 程度 较 低 的 
短文 本 评论 。 


4 实例 分 析 


4.1 在 线 评论 动态 特征 分 析 
基于 时 间 序 列 角度 ,从 评论 数量 和 情感 倾向 两 个 维 
度 来 分 析 长 文本 评论 和 短文 本 评论 随时 间 变 化 的 动态 
规律 。 
4.1.1 在 线 评论 数量 动态 特征 分 析 从 在 线 评论 数 
量 出 发 ,对 两 种 不 同类 型 的 评论 进行 分 析 ,并 分 别 以 每 
周 .每 日 ,每 小 时 作为 时 间 统 计 单 位 ,统计 在 线 评论 前 
12 周 的 评论 数据 并 按照 评论 类 型 进行 划分 。 
以 周 为 时 间 单 位 ,图 2 和 图 3 分 别 描述 了 不 同类 
型 在 线 评论 数量 随时 间 的 变动 趋势 。 总 体 而 言 ,长 文 
本 评论 和 短文 本 评论 的 数量 随时 间 变 动 趋势 趋 于 一 
致 , 即 第 一 周 的 评论 数量 最 多 ,评论 行为 最 为 活跃 ,第 
二 周 评论 数量 又 减 , 之 后 在 低 数量 水 平 下 保持 稳定 。 
就 长 文本 评论 而 言 ,第 一 周 评论 数量 1 829 条 , 占 其 评 
论 总 数 的 81.36% ,第 二 周 评论 数量 326 条 , 相 较 第 一 
周 下 降 82. 12% 。 对 于 短文 本 评论 而 言 ,第 一 周 评论 数 
量 为 62 633 条 , 占 该 类 型 评论 总 数 的 54.47% ,第 二 周 
评论 数量 21 542 条 ， 相 较 第 一 周 下 降 65. 61% 。 总 体 
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来 看 ,在线 评 论 的 数量 呈 递 减 趋势 ,这 是 由 于 早期 的 电 
影评 论处 于 热度 较 高 的 阶段 ,产生 了 大 量 的 口碑 传播 
行为 。 但 随 着 时 间 推 移 , 消 费 者 关注 度 降 低 导 致 口碑 
传播 行为 的 逐渐 弱化 , 随 之 使 电影 评论 的 热度 降低 ,无 
法 刺激 潜在 消费 者 的 消费 行为 ,因此 发 布 的 评论 越 来 
越 少 ,因而 电影 评论 数量 也 会 逐渐 减少 。 

以 日 为 时 间 单 位 ,统计 长 文本 评论 和 短文 本 评论 在 
一 周 7 天 内 的 分 布 规律 ,为 了 便于 对 比分 析 , 将 每 个 统计 
区 间 内 两 种 类 型 的 评论 数量 进行 标准 化 处 理 , 结 果 见 图 
4。 不 难 发 现 ,两 种 类 型 在 线 评论 的 走向 趋 于 一 致 ,周一 至 
周 四 的 评论 数量 维持 在 较 低 水 平 ,从 周 五 开始 大 幅度 上 
升 , 周 六 达到 峰值 , 且 周 五 - 周 日 是 每 周 评论 发 布 的 高 峰 
期 。 区 别 在 于 ,长 文本 评论 比 短 文本 评论 在 评论 高 峰 期 的 
发 布 更 为 集中 ,一 周 内 的 走势 波动 也 更 加 剧烈 。 


§ 6 i 


4 在 线 评论 一 周 内 数量 分 布 标准 化 数据 


> < 以 小 时 为 时 间 单位 ,将 一 天 24 个 小 时 划分 为 0:00 
-6800( 凌 晨 ) .6:00 -12:00( 上 午 )、12:00 -18:00 
GE ) 和 18:00 -24:00( 夜 晚 )4 个 时 间 段 。 统 计 不 
同类 型 评论 在 一 天 24 小 时 的 数量 分 布 情况 并 进行 标 
准 化 处 理 , 结 果 见 图 5。 从 图 5 中 可 以 看 出 ,两 种 评论 


值 ,随后 开始 下 降 ,凌晨 2 点 到 6 点 是 评论 数量 的 低谷 
期 ,上 午 7 点 之 后 数量 又 开始 上 升 。 总 体 来 看 ,下 午 和 
夜晚 的 评论 数量 高 于 上 午 和 凌晨 。 但 是 两 种 评论 存在 
一 定 差异 性 , 即 在 22 点 到 次 日 10 点 之 间 ,长 文本 评论 
发 布 更 加 集中 ,其 他 时 间 短 文本 评论 发 布 更 集中 。 这 


在 一 天 内 的 走势 基本 一 致 。 无 论 是 长 文本 评论 还 是 短 
文本 评论 ,评论 高 峰 都 出 现在 上 午 12 点 ,下 午 5 点 和 
晚上 10 点 ,并 且 晚 间 10 点 的 评论 数量 到 达 一 天 的 峰 


12% 


评论 数量 标准 化 率 ( %) 


是 由 于 白天 时 间 多 旦 碎片 化 ,消费 者 多 发 表 短 文本 评 
论 ;在 晚上 消费 者 拥有 连续 性 时 间 来 编辑 长 文本 ,因此 
更 倾向 于 在 晚上 发 表 长 文本 评论 。 


六 对 


评论 时 间 (小 时 ) 


5 在 线 评论 一 天 内 数量 分 布 标准 化 数据 
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4.1.2 ”在线 评论 情感 倾向 动态 特征 分 析 评分 代表 
消费 者 对 产品 的 满意 程度 。 一 般 而 言 ,评分 越 高 ,反映 
出 消费 者 的 满意 程度 越 高 ,情感 倾向 也 愈 发 积极 正面 。 
因此 ,本 研究 利用 评分 来 衡量 消费 者 的 情感 倾向 。 统 
计 长 文本 评论 和 短文 本 评论 在 电影 上 映 后 第 1 -5 周 
的 评分 平均 值 ,并 计算 评分 的 标准 差 来 进行 评论 极端 
性 分 析 , 见 表 1 和 表 2。 长 文本 与 短文 本 评论 的 评分 方 
差分 布 有 其 共性 特征 ,也 存在 一 定 差异 。 横 向 来 看 ,两 
者 的 方差 都 随 着 电影 上 映 时 间 的 增加 而 减 小 ,这 是 由 
于 电影 上 映 时 间 越 长 ,对 于 电影 的 关注 度 和 讨论 的 激 
烈 程度 越 低 ;纵向 来 看 , 相 较 于 长 文本 评论 ,短文 本 评 
论 的 评分 方差 在 各 时 间 区 间 内 一 直 处 于 较 高 水 平 , 表 
明 短文 本 评论 的 讨论 更 加 激烈 ,电影 热度 更 高 ,争议 性 
要 大 ,激发 了 消费 者 的 好 奇 心 ,长 文本 评论 对 电影 做 出 
的 鲁 价 较为 全 面 ,情感 表达 的 极端 性 即 讨论 激烈 程度 


比较 低 。 


表 1 不 同类 型 评论 评分 方差 分 布 


表 3 在 线 评论 时 间 间 隔 序列 特征 基本 描述 ( 单位 :分 钟 ) 


评论 类 型 最 小 值 ”最 小 值 占 比 ”最 大 值 均值 标准 差 
长 文本 评论 0 25.6% 17 202 20. 17 75.81 
短文 本 评论 0 81.2% 588 gp 12.59 


长 文本 评论 与 短文 本 评论 的 时 间 间 隔 序列 中 ,最 
短 时 间 间 隔 均 为 0 分 钟 。 但 是 ,短文 本 评论 时 间 间 隔 
序列 中 ,间隔 时 间 为 0 分 钟 对 应 的 评论 数量 所 占 比重 
远 高 于 长 文本 时 间 间 隔 序列 ,并 且 在 最 大 值 均值 标 
准 差 等 指标 上 也 存在 较 大 差异 。 为 了 进一步 对 比 这 两 
种 评论 类 型 的 区 别 ,本 文 对 在 线 评论 的 时 间 间 隔 序列 
和 评论 数量 分 别 取 对 数 绘制 散 点 图 ,部 分 观测 点 所 代 
表 的 数据 出 现 频率 较 低 ,时 间 间 隅 较 长 ,因此 在 散 点 
末端 表现 出 明显 的 “ 胖 尾 ”现象 。 在 分 析 过 程 中 ,利用 
最 小 二 乘法 对 去 除 掉 这 部 分 数据 后 的 主体 数据 进行 拟 
合 , 见 图 6 和 图 7。 黑 色 实 点 表示 相 令 在线 评论 时 间 间 
隔 的 原始 数据 ,直线 代表 对 主体 数据 的 拟 合 曲线 ,两 种 
类 型 评论 数据 的 拟 合 优 度 都 在 90% 以 上 ,长 文本 在 线 
评论 和 短文 本 在 线 评论 的 评论 时 间 间 隅 均 符 合 害 率 分 
布 特征 。 
4.2.2 在 线 评 论 时 间 间 隔 指标 特征 分 析 为 了 进 一 
步 探究 消费 者 发 布 不 同文 本 长 度 类 型 评论 的 行为 特 
征 ,本 文 引 入 在 线 人 类 行为 动力 学 中 阵 发 性 系数 ,结合 


第 一 周 第 二 周 第 三 周 第 四 周 名 五 周 

文本 评论 2.586 2.175 1.582 1.432 1.153 

CB 本 评论 1.757 1.746 1.036 0.930 0.633 
表 2 不 同类 型 评论 评分 分 布 

CN 类 型 第 一 周 ”第 二 周 ”第 三 周 ”第 四 周 第 五 周 

短文 本 评论 3.338 3. 595 3. 822 3. 909 3.910 

"本 评论 3.709 3.791 3.962 3.977 4.086 


在 线 评论 数量 和 老 指 数 对 其 行为 规律 特征 进行 描述 。 
阵 发 性 是 描述 人 类 短 时 间 内 活动 密集 程度 和 长 时 
间 静 默 程度 的 统计 量 ,计算 公式 为 ” : 


GS 从 评分 角度 来 看 ,总 体 评分 的 逐渐 上 升 代表 着 口 
碑 疯 回升 。 从 各 时 间 区 间 评 分 所 对 应 的 评论 极端 性 来 
看 "电影 评论 评分 与 评论 极端 性 具有 反 向 关系 , 即 在 同 
一 时 间 区 间 内 ,评分 越 高 ,对 应 的 评论 极端 性 就 越 低 ， 
消费 者 在 电影 评论 极端 性 较 低 时 更 热衷 给 出 高 分 , 评 


B 


(oO/m,1) ao 一 mm 


其 中 ,c, 是 时 间 间 


间隔 序列 7 的 均值 。 对 


(g/m,+1) otm, 


公式 (1) 


隅 序列 r 的 标准 差 ,m, 是 时 间 
于 指数 分 布 , 若 标准 差 和 均值 


相等 , 则 B 等 于 0; 若 ” 


胖 尾 ”分 布 越 明显 , 则 代表 ac, 和 


价 更 加 积极 ,而 在 争议 较 大 时 用 户 评分 较 低 ,情感 倾向 


偏向 负面 。 

4.2 在 线 评论 时 间 间 隔 特 征 分 析 

4.2.1 在 线 评论 时 间 间 隔 分 布 特征 ”时 间 间 隔 是 ] 
相 邻 在 线 评论 发 布 的 时 间 差 ,车 全 部 在 线 评论 时 间 序 
列 所 含 数据 量 为 N, 则 时 间 间 隔 序 列 中 所 含 数据 量 为 
N -1。 为 了 探究 长 文本 与 短文 本 在 线 评论 行为 的 时 
间 特 征 规律 ,本 文 引入 在 线 人 类 行为 动力 学 中 的 时 间 
间隔 概念 ,利用 寡 率 拟 合 的 方法 对 其 进行 刻画 。 在 线 
评论 时 间 间 隔 特征 分 布 以 相 邻 评 论 的 时 间 间 隔 为 时 间 


ely 


m; 相差 越 大 , 即 B 越 趋 近 于 1。 结 合 相 关 参 数 利 用 公 
式 (1) 进行 计 算得 到 长 文本 评论 行为 阵 发 性 系数 为 
0.579 7 ,短文 本 评论 行为 的 阵 发 性 系数 为 0.759 8。 由 
表 4 可 以 看 出 ,长 文本 评论 和 短文 本 评论 数量 差异 显 
著 , 短 文本 评论 数 为 114 994 条 , 占 评论 总 数 的 98% ,长 
文本 评论 所 含 数 量 为 2348 条 , 仅 占 2% 。 这 是 因为 长 
文本 评论 字数 较 多 ,评论 者 需要 花费 更 多 时 间 精 力 进 
行 编辑 ,因此 发 布 的 数量 较 少 。 此 外 ,长 文本 评论 和 短 
文本 评论 都 具有 明显 的 阵 发 性 ,这 是 由 于 电影 上 映 初 
期 ,话题 性 和 电影 热度 会 在 短 时 间 内 催生 大 量 的 评论 


序列 ,并 对 时 间 间 隅 序列 中 最 小 值 .最 大 值 均值 和 标 


行为 ,因此 阵 发 怕 


E 较 强 ; 短 文本 评论 时 间 间 隔 序 列 服从 


准 差 等 基本 特 生 


进行 描述 ,本 文中 ,将 ”分钟 "作为 刻 


画 时 间 间 隔 序列 的 基本 单位 。 如 表 3 所 示 : 


震 指 数 为 -1. 803 的 分 布 规 得 
隔 序列 服从 寡 指 数 为 -1.218 


,而 长 文本 评论 时 间 间 
的 分 布 规律 。 但 是 两 者 
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QO 图 7 ”短文 本 评论 时 间 间 隔 序 列 分 布 特征 


震 指 数 相差 较 大 ,原因 在 于 相 比 于 短文 本 评论 的 密集 
发 布 ,长 文本 评论 的 发 布 较为 分 散 , 相 邻 评论 之 间 发 布 
的 时 间 间 隔 普 遍 比 较 长 , 短 的 时 间 间 隔 所 占 比 例 较 低 ， 
长 的 时 间 间 隔 占 比较 高 ,所 以 长 文本 在 线 评论 罕 指 数 


的 绝对 值 相对 较 小 。 
表 4 不 同类 型 评论 指标 特征 分 析 
评论 类 型 数量 (条 ) 寡 指 数 阵 发 性 
长 文本 评论 2 348 —1.218 0.5797 
短文 本 评论 114 994 —1.803 0.7598 


5 文本 内 容 分 析 

为 了 对 长 文本 评论 和 短文 本 评论 的 内 容 特征 进行 
挖掘 和 总 结 ,本 文 利用 Python 的 jieba 分 词 包 对 评论 内 
容 中 的 关键 词 进行 提取 并 分 析 , 具 体操 作 过 程 如 下 : 
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(1) 构建 停 用 词 表 。 将 评论 内 容 中 字母 .表情 符 
号 ,时间 等 无 明显 意义 的 字符 和 “的 “地 ”等 介词 以 及 
“然后 “后 来 "等 连词 作为 停 用 词 ,在 进行 分 词 时 自动 
过 滤 这 些 词语 和 符号 。 

(2) 根 据 词 频 进行 排序 。 抓 取 评 论 内 容 中 去 除 掉 
停 用 词 后 的 关键 词 ,并 统计 每 一 个 词 对 应 的 出 现 频数 ， 
按照 词 频数 从 高 到 低 进 行 排序 。 

(3 ) 将 高 频 词 按照 不 同 特征 归 类 。 基 于 不 同 评论 
类 型 中 高 频 词 的 分 布 规律 与 出 现 频率 等 属性 特征 ,来 反 
映 评 论 内 容 的 差异 性 。 本 文 将 "演员 导演、 台词 演技 、 
演员 姓名 "等 关键 词 归属 为 人 物 特征 ;将 描绘 消费 者 情 
感 的 词 归属 于 情感 表达 特征 ,主要 包括 “喜欢 .好 看 一 
般 \ 可 以 \ 垃 圾 、 无 聊 ” 等 表现 不 同情 感 倾 向 的 词语 ;将 
“剧情 、 风 格 情节 、 结 局 "等 定义 为 电影 内 容 特征 。 
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表 5 在 线 评论 高 频 词 分 布 统计 
评论 内 容 关 注 点 语义 特征 
情感 表达 ”电影 内 容 。 合计 


评论 类 型 


作物 特征 。 特征 。 特征 
长 文本 评论 计数 14 11 25 50 
比例 (% ) 28 22 50 100 
短文 本 评论 计数 13 20 17 50 
比例 (% ) 26 40 34 100 


抽取 词 频数 在 前 50 位 的 高 频 词 进行 统计 ,结果 见 
表 5 ,长 文本 评论 和 短文 本 评论 既 有 明显 共性 特征 ,也 
存在 显著 差异 ,反应 出 两 种 评论 类 型 对 应 的 消费 者 群 
体 对 产品 关注 点 不 完全 相同 。 从 人 物 . 情 感 .电影 内 容 
等 特征 在 两 种 评论 类 型 中 分 布 的 比例 来 看 ,对 于 长 文 
本 评论 ,首先 关注 的 是 电影 内 容 特 征 (50% ) ,其 次 是 
人 驳 特 征 (28% ) ,关注 情感 表达 特征 的 比例 仅 占 
2290; 对 于 短文 本 评论 ,情感 表达 特征 占 比 40% ,电影 

塞 特征 占 比 34% ,人 物 特征 占 比 26% 。 在 两 种 不 同 
类 型 的 在 线 评论 中 ,人 物 特 征 中 出 现 相同 高 频 词 的 数 
感光 12 个 , 占 全 部 高 频 词 数量 的 24% ;情感 表达 特征 
da 9 个 , 占 高 频 词 总 数 的 18% ; 电 
影 六 容 特征 中 出 现 相同 高 频 词 数 为 10 个 , 占 高 频 词 总 
eh 总 体 来 看 ,两 种 评论 类 型 中 高 频 词 的 相似 


62% 。 

无 论 哪 种 评论 类 型 ,对 于 人 物 特征 的 关注 比例 基 

号 致 ,该 类 特征 在 长 文本 在 线 评论 和 短文 本 在 线 评 
论 电 分 别 占 比 28% 和 26% 。 在 所 有 的 高 频 词 中 ,“ 演 
员 购 名 "对 应 的 高 频 词 出 现 频数 最 多 ,表明 电影 这 种 体 
验 更 产品 评论 的 明星 效应 显著 ,人 物 特 征 中 出 现 频率 
最 往 的 词语 是 “姜文 ” ;情感 表达 特征 中 出 现 频率 最 高 
的 词语 为 “喜欢 ”; 在 电影 内 容 特 征 中 , “故事 "和 “ 剧 
情 ” 出 现 的 频率 排 在 前 两 位 。 区 别 在 于 , 相 较 于 长 文本 
评论 ,短文 本 评论 中 关注 情感 表达 特征 的 比例 最 高 
(40% ) ,说 明 发 布 此 评论 类 型 的 消费 者 更 多 的 是 体现 
在 感性 表达 层面 。 具 体 而 言 ,情感 表达 特征 中 主要 包 
括 “ 喜 欢 、 好 看 .一般 .值得 . 烂 .垃圾 "等 情感 词 ,从 词 
性 来 区 分 ,包含 正面 与 负面 词汇 ,这 也 与 上 文 的 分 析 结 
果 相 符 , 即 短文 本 评论 自身 具有 更 高 的 情感 极端 性 ,对 
于 同一 产品 的 意见 难以 达成 一 致 。 另 外 ,对 电影 的 表 
现 手 法 ,时 代 背 景 等 较为 专业 的 内 容 关注 较 少 ;长 文本 
评论 更 加 关注 电影 本 身 , 即 电影 内 容 特征 。 同 时 ,在 情 
感 表达 方面 ,出 现 的 高 频 词 主要 是 “喜欢 、 幽 默 、 好 看 、 
为 什么 "等 正面 词 和 中 性 词 。 因 此 ,长 文本 评论 的 评分 
普遍 高 于 短文 本 评论 ,蕴含 的 情感 极端 性 较 低 。 


在 线 电影 评论 中 出 现 的 高 频 词 反映 出 大 多 数 评论 
者 的 关注 点 , 即 某 一 种 特征 属性 的 高 频 词 出 现 次 数 越 
多 , 则 代表 观众 越 倾向 关注 哪 类 特征 。 本 文 基于 电影 
上 映 后 153 天 的 全 部 评论 信息 ,经 过 统计 整理 得 到 了 
不 同类 型 评论 中 排名 前 120 位 的 高 频 词 ,按照 高 频 词 
出 现 的 频率 计算 权重 排序 并 将 其 可 视 化 得 到 词 云图 ， 
在 词 云图 中 ,高 频 词 出 现 频率 越 高 ,对 应 的 字体 越 大 ， 
如 图 8 和 图 9 所 示 : 
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图 9 短文 本 评论 高 频 词 词 云图 


按照 评论 类 型 ,将 反映 人 物 特征 ,情感 表达 特征 和 
电影 内 容 特征 的 词语 分 别 按照 词 频 由 高 到 低 的 顺序 进 
行船 选 ,列举 排名 前 10 位 的 高 频 词 及 其 对 应 频数 , 见 
表 6。 


6 研究 结果 讨论 


本 文 利用 Python 的 忠 语言 候 取 在 线 评论 的 相关 信 
息 ,按照 字符 数 将 在 线 评论 分 为 长 文本 在 线 评 论 和 短 
文本 在 线 评论 两 种 类 型 ,引入 人 类 行为 动力 学 理论 中 
的 相关 指标 从 评论 发 布 时 间 角 度 分 析 两 类 在 线 评论 的 
分 布 规律 。 研 究 结 果 表明 ,无 论 是 长 文本 评论 还 是 短 
文本 评论 ,时 间 间 隔 序列 都 符合 寡 率 分 布 ,分 布 末端 具 
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表 6 在 线 评论 高 频 词 


长 文本 评论 高 频 记 


短文 本 评论 高 频 词 


人 物 特征 情感 表达 特征 电影 内 容 特征 人 物 特征 情感 表达 特征 电影 内 容 特 征 
姜文 (3 174) 喜欢 (839) 故事 (963) 姜文 (12 577) 喜欢 (3 898) 剧情 (5 104) 
彭于晏 (1 335) 黑色 幽默 (543 ) 复仇 (794) 芯 于 受 (8 390 ) 好 看 (3 394) 故事 (3 242) 
李 天 然 (777) 好 看 (433) 剧情 (637) 导演 (2 355) 不 错 (3 135) 风格 (2 890) 

导演 (672) 值得 (284) 隐喻 (518 ) 演技 (2 350) 一 般 (1 527) 情节 (2 116) 

许晴 (540) 不 错 (262) 风格 (478) 许晴 (2 056) 值得 (1 492) 节奏 (1 226) 

人 物 (504) 特别 (260) 情节 (379) 演员 (2 002) 失望 (1 302) 复仇 (1 093) 

雇 凡 (424) 为 什么 (252) 节奏 (310) 户 凡 (1 776) 寺 别 (1 038) 结局 (1 085) 

角色 (420) 简单 (234) 日 本 (304) 台词 (1 585) 月 待 〈951 ) 画面 (964 ) 

司 韵 (386) 理解 (209) 中 国 (303) 人 物 (1 264) 腥 (915) 作品 (754) 

演技 (370) 期 待 (184 ) 镜头 (291) 身材 (1 061) 不 好 看 (866) 镜头 (732) 


有 典型 的 “ 胖 尾 ” 特征 , 宕 率 分 布 指数 分 别 为 -1.218 
和 和 -一 1. 803 , 且 均 有 较 强 的 阵 发 性 。 同 时 基于 大 样本 在 
线 评论 数据 ,从 评论 数量 ,情感 极 性 .评分 等 角度 分 析 


| 


布 俩 历史 记录 角度 ,对 于 倾向 发 布 长 文本 评论 的 消费 
适 和 多 向 其 宣传 关于 产品 内 容 特征 的 相关 信息 ;对 于 发 
布 捍 文 本 评论 的 消费 者 ,借助 情感 极 性 较 强 的 词语 和 
话题 来 吸引 相关 用 户 群 体 的 关注 和 讨论 。 电 商 平 台 根 
据 码 线 评论 的 数量 特征 和 时 间 特 征 ,可 以 及 时 了 解 消 
费 者 评论 类 型 和 评论 内 容 的 变化 ,并 有 针对 性 地 给 予 
干预 ,如 针对 长 文本 评论 数量 偏 少 的 问题 可 以 引导 和 
鼓励 消费 者 更 加 及 时 迅速 地 发 布 长 文本 评论 ,以 增加 
该 类 型 评论 的 数量 ,缩短 评论 发 布 的 时 间 间 隔 。 从 电 
商 平台 自我 优化 的 角度 考虑 ,在 展示 在 线 评论 时 ,除了 
按照 时 间 远 近 排序 之 外 ,还 可 以 根据 “商品 特征 ”"“ 情 
感 表达 特征 “内 容 特征 "等 将 在 线 评论 归 类 ,充分 利 
用 文本 挖掘 技术 提取 文本 内 容 , 帮 助 消费 者 快速 找到 
所 需 商品 信息 ,降低 购买 决策 的 时 间 成 本 ,从 而 减少 信 
息 过 载 给 消费 者 选择 造成 的 困扰 。 

当然 ,本 文 也 有 一 定 的 不 足 之 处 。 首 先 , 本文 仅 以 
电影 评论 作为 体验 型 产品 评论 的 样本 开展 研究 ,没有 
引入 其 它 体验 型 产品 的 在 线 评论 ,样本 代表 性 不 足 ;第 
二 ,以 评分 的 方差 测度 在 线 评论 情感 极端 性 ,一 定 程度 
上 降低 了 分 析 的 准确 性 ;第 三 ,出 于 样本 数据 考虑 ,本 
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文 仅 选 择 了 一 家 第 三 方 平 台 作 为 数据 来 源 , 其 它 电 子 
商务 平台 的 在 线 评 论 发 布 时 间 间 隔 是 否 符合 寡 率 分 布 
特征 ,是否 具 有 强 阵 发 性 以 及 震 指 数 的 分 布 区 间 范 围 
等 问题 还 有 竺 验证。 这 些 问题 ,也 将 在 未 来 的 研究 中 
做 进一步 完善 。 
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Study on Time Series of Online Experiential Product Review Based on Text Length : 
Taking Movie Reviews as an Example 
Wang Jun Li Zijian Liu Xiaoman 
School of Management, Jilin University, Changchun 130022 

Abstract: [ Purpose/significance | According to the text length ,the online experiential product review is divided in- 
to re text online review and short text online review. Exploring the temporal and content characteristic of these two types 
of online review provides intelligence basis to e-commerce platform about consumers ”online review behavior and product 
demand preference. [Method/process| Python crawler language is employed to collect information of online review in 
movie review website, and then the paper constructs an online comment interval sequence. Human behavioral dynamics 
theory is used to find out time characteristic law in different types of online review,and on the other hand ,text mining 
method is used to discover content characteristics in different types of online review. The characteristics are compared and 
analyzed in the paper. [ Result/conclusion | Taking the movie review websites ”online reviews as the data source, from 
the time perspective ,this paper concludes that time interval sequence obeys to the power -law distribution between different 
types of online review behavior,and from the text mining perspective ,it finds that the content characteristics performance 
similarities as well as significant differences. 


Keywords: online reviews time-series analysis text mining content characteristics 
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